Įvadas

Ši ataskaita skirta eksploratyvinei banko paskolų duomenų analizei. Mes įvertinsime pagrindines duomenų tendencijas, atliksime kintamųjų apžvalgą ir vizualizuosime svarbiausius duomenų aspektus.

Duomenų Paruošimas ir Įkėlimas

Reikalingų bibliotekų įkėlimas:

library(tidyverse)
library(knitr)
library(tibble)
library(ggplot2)
library(scales)
library(DT)
library(dplyr)
library(plotly)

Duomenų įkėlimas (naudojamas cache=TRUE efektyvumui užtikrinti):

df <- read.csv("../../../project/1-data/1-sample_data.csv")

Duomenų Rinkinio Apžvalga

Duomenų failo dimensijos:

## [1] 1000000       9

Duomenų failas turi 1000000 eilučių ir 9 stulpelius, toliau apžvelgiame kintamuosius:

id y amount_current_loan term credit_score loan_purpose yearly_income home_ownership bankruptcies
Min. : 1 Min. :0.0 Min. : 10802 Length:1000000 Length:1000000 Length:1000000 Min. : 76627 Length:1000000 Min. :0.0000
1st Qu.: 250001 1st Qu.:0.0 1st Qu.:174394 Class :character Class :character Class :character 1st Qu.: 825797 Class :character 1st Qu.:0.0000
Median : 500001 Median :0.5 Median :269676 Mode :character Mode :character Mode :character Median : 1148550 Mode :character Median :0.0000
Mean : 500001 Mean :0.5 Mean :316659 NA NA NA Mean : 1344805 NA Mean :0.1192
3rd Qu.: 750000 3rd Qu.:1.0 3rd Qu.:435160 NA NA NA 3rd Qu.: 1605899 NA 3rd Qu.:0.0000
Max. :1000000 Max. :1.0 Max. :789250 NA NA NA Max. :165557393 NA Max. :7.0000
NA NA NA NA NA NA NA’s :219439 NA NA’s :1805

Minėti 9 stulpeliai:

Matome, jog y reikšmės yra rodiklis, ar paskola bus patvirtinta, todėl modeliavime tai bus mūsų pagrindinis kategorinis kintamasis.

Išsami Duomenų Analizė

Kintamųjų tipų keitimas ir N/A reikšmių analizė:

Pagrindinių paskolos tikslų apžvalga:

Didžioji dalis paskolą bando gauti siekiant padengti jau turimą paskolą (arti 80%), kiti tikslai po didžiajai daliai buitiniai (namų remontas, mašinos pirkimas, kt.) bei laisvalaikio (išvykos, poilsis, t.t.).

N/A reikšmių apžvalga:

N/A reikšmes turi tik trys kintamieji- credit_score, yearly_income ir bankruptcies. Pagal N/A reikšmių kiekius kintamuosiuose sprendžiame, jog kintamieji credit_score (apie 30% reikšmių- N/A) bei yearly_income (apie 20% reikšmių - N/A) nebus tokie reikšmingi paskolos suteikimo procese, kaip kad kiti kintamieji.

Atvaizduojame paskolos suteikimo duomenis pagal paskolos tikslą: